網站不想你爬 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2021 iThome 鐵人賽

DAY 11

1

自我挑戰組

初次接觸爬蟲的學習系列第 11 篇

網站不想你爬

13th鐵人賽

2021-09-16 09:37:42

1300 瀏覽

分享至

這邊想說一下，關於上一篇有講到我利用superagent()來獲得網站資訊，結果抓取失敗。這是因為不一定所有網站都願意其他人隨便沿用自己的東西，所以在網站後台可以讓人設定禁止令之類的，防止他人搜索。
那要如何知道網站是否同意進行搜索，可以在網址根目錄後加上robots.txt就會看到文字檔紀錄，像是用戶代理、禁止目錄…等等。下面是我上一篇失敗網站的文字檔。

總而言之，就是禁止了很多東西，導致我抓取失敗了!
之後我稍微補充下robots.txt的基本應用吧。

常見用詞：

User-agent => 對於那些搜索引擎生效
Disallow => 禁止進入的目錄，需指名路徑
Sitemap => 網站內sitemap檔案位置，須完整路徑

常見應用：

允許所有引擎檢索
User-agent：*
Disallow：
拒絕所有引擎檢索
User-agent：*
Disallow：/
拒絕所有引擎檢索/users/下所有內容
User-agent：*
Disallow：/users/
拒絕Google搜圖檢索/images/下所有內容
User-agent：Googlebot-image
Disallow：/images/

想要爬個資料也困難重重

檢查資訊內容(我也不知道我在做啥，不要理我T^T)

系列文

初次接觸爬蟲的學習共 30 篇

目錄

RSS系列文訂閱系列文

5 人訂閱

完整目錄

熱門推薦

{{ item.subject }}

{{ item.channelVendor }} | {{ item.webinarstarted }} |

{{ formatDate(item.duration) }}

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19777 篇

完賽人數

529 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙